查看原文
其他

​ICML 2021 Long Oral | 顺序不可知的交叉熵函数

张一帆 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者 | 张一帆
学校 | 华南理工大学本科生
研究方向 | CV,Causality

本文针对非自回归翻译模型提出了一个新的损失函数:order-agnostic cross entropy(OAXE),这种交叉熵损失函数忽略了词与词的顺序,将 NAT 看成了一个集合预测的问题,基于模型预测和目标标签之间的最佳可能对齐计算交叉熵损失。

为了解决由于次序忽略带来的问题,文中提出了使用交叉熵损失 pretrain 模型再使用 OAXE finetune 以及对 confidence 较小的预测进行截断两种正则化的策略,极大的提高了翻译的性能。

论文标题:
Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation


论文链接:
https://arxiv.org/abs/2106.05093


代码链接:
https://github.com/tencent-ailab/ICML21_OAXE



Methodology

先来直观的看一下本文的损失函数和已有的 loss 有什么本质的区别。传统的交叉熵损失对每一个错误的词序都会引入惩罚,之前的工作AXE会对词进行单调的对齐,而本文直接找最优的对齐方式。

那么我们将传统的交叉熵损失写为:

本文提出的 loss 其实很简单:

其中 是我们的排序空间, 是其中一种对预测词排序的策略,对于一个长度为 的预测,可以找到 种不同的排序,因此如何计算这个损失是个问题。在本文种,作者将该问题简化为了二分图匹配,对预测出的每个位置和目标词汇之间进行二分图匹配。


Training

2.1 Avoiding Invalid Orderings via XE Initialization

如果我们直接使用 OAXE loss 进行训练,那么显然会丢失掉词序信息,文中有两种策略缓解这个问题:
  1. 我们先使用 XE loss 训练一个模型,然后使用 OAXE 进行微调,这样 XE loss 其实已经学到了不错的词序信息。
  2. 第二种方法是将 XE 和 OAXE 根据一个加权因子进行结合,这个权重随着时间变化逐渐趋于 0。

2.2 Dropping Invalid Predictions via Loss Truncation

即使使用 XE 来初始化,也还是会产生一些例如“I apple have”之类的语句,作者根据置信度进行截断,其中截断参数 是根据验证集进行寻找的。

只反向传播概率高于 margin 的词,这使得模型倾向于只学习有信心的预测。


Experiments

作者在 6 个数据集上进行了实验,均采取了句子级别的 distillation,baseline 为 CMLM。
3.1 不同的OAXE引入策略
上述提到了两种防止次序信息丢失的方法,从实验中可以得到,从 XE 预训练的模型开始引入 OAXE 得到的效果最好。
3.2 与SOTA的比较
CMLM 是之前的 SOTA,如果在输出端经过足够多次数的 refinement,CMLM 可以在 WMT14 EN-DE 上得到 27 左右的 BLUE,只有一次 refinement 的话只有 18.3,但是通过 OAXE 进行 fine-tune,可以使得其获得超过 7 个点的提升。

3.3 Raw Data

上面说到了,现在 NAT 都采用了句子级别的 distillation 来减少训练数据的多样性,从而提升模型的性能。在 raw data 上,OAXE 带来了更大的提升,即使使用raw data,其也比 cmlm 强。

除此之外文章还做了对于多样性,词序和句子长度相关的实验,相比于 XE,OAXE 在文中涉及的所有 metric 种均带来了巨大的提升。


Conclusion

XE 是一个典型的 token-level 的损失函数,相比较而言,OAXE 虽然依然是交叉熵,但是更像是 sentence-level 的损失函数,因此他已经和单个词的位置没有关系了,更多的 focus 在句子的语义上。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编





🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存